Hugging Face Tokenizers
huggingface Tokenizers 是一个开源项目,它提供了当今最常用的分词器的实现,重点关注性能和多功能性。这些分词器也被用于 Hugging Face 的 Transformers 库。
Hugging Face Tokenizers 的主要特点包括:
- 使用当今最常用的分词器训练新词汇表和分词。
- 由于采用了 Rust 实现,所以训练和分词都非常快。在服务器的 CPU 上对 GB 级别的文本进行分词不到 20 秒。
- 易于使用,但也极其多功能。
- 为研究和生产而设计。
- 规范化带有对齐跟踪。始终可以获得与给定令牌对应的原始句子的部分。
- 完成所有预处理:截断、填充、添加模型需要的特殊令牌²。
Hugging Face Tokenizers 还提供了对多种语言(更多即将推出!)的绑定,包括 Rust(原始实现)、Python、Node.js 和 Ruby
网络资源
- (1) Tokenizers - Hugging Face. https://huggingface.co/docs/tokenizers.
- (2) GitHub - huggingface/tokenizers: Fast State-of-the-Art Tokenizers .... https://github.com/huggingface/tokenizers.
- (3) 日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ. https://tech.mntsq.co.jp/entry/2021/02/26/120013.
- (4) Tokenizer - Hugging Face. https://huggingface.co/docs/transformers/main_classes/tokenizer.
本文作者:Maeiee
版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!
喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!